[논문] Synthetic Data
A Comparison of Synthetic Data Approaches Using Utility and Disclosure Risk Measures
- Deep generative model
- Discolsure risk
- Nonparametric Bayesian
- Sequential regression
- Synthetic data
- Utility
Seongbin An, Trang Doan, Juhee Lee, Jiwwo Kim, Yong Jae Kim, Yunji Kim, Changwon Yoon, Sungkyu Jung, Dongha Kim, Sunghoon Kwon, Hang J Kim, Jeongyoun Ahn, Cheolwoo Park
The Korean Journal of Applied Statistics
서론
-
재현자료 생성기법
순차적 회귀분석
비모수 베이지안
인공지능 기반: CTGAN, TVAE
-
유용성 지표
.
(대역 유용성):자료 전체의 분포적인 특성을 얼마나 비슷하게 유지 - Propensity Score, 거리측도, α-정밀도, β-wogusdbf
.
(특정 유용성): 특정 분석이 데이터의 적용될 것을 가정하고 해당 분석에서 원본자료와 재현자료가 얼마나 유사한 결과를 나타내는지 기반으로 유용성 판단 - 신뢰구간 중첩
-
노출 위험도 지표
신원 노출 위험도
속성 노출 위험도
독창성 점수
Survey Est
- 2019년 전국 사업체 조사 데이터
이항형, 다항형, 연속형 변수
구분 | 변수명 | 변수설명 |
---|---|---|
범주형 | SEX | 대표자 성별(남/여) |
SUMMAT_CD | 매출 금액(9단계 범주) | |
연속형 | WORKER_T | 총 근로자수 |
EMP_T | 상용근로 종사자수 | |
BIS_MNTH | 영업개월수 |
\[WORKER_T>=EMP_T\]
재현자료 생성기법
순차적 회귀모형
변수의 순서에 따라 결합분포의 추정값이 다르다.
\(X_j\) 범주형 \(\to\) 분류 의사결정나무 : 지니계수
\(X_j\) 수치형 \(\to\) 회귀 의사결정나무 : 엔트로피
베이지안
인공지능
재현자료의 평가 지표
Propensity Score Measure
Propensity Score: 공변량 X가 주어졌을 때 처리그룹으로 배치될 확률 \(Pr(Treatment = 1 | X)\)
재현자료로 배치되는 경우를 처리 그룹으로 배치되는 경우로 생각
\[ pMSE = \dfrac{1}{n_s+n_o}\sum_{i=1}^{n_s+n_o}(p̂_i-c)^2\]
재현자료의 유용성이 높을수록 \(pMSE\)는 0에 가까움
- 원본자료와 재현자료를 분포적으로 구분할 수 있는지 수치화
- 개별적 비교 필요 없이 변수의 관계성을 고려하여 평가 가능
- 분류 모델에 따라 \(pMSE\) 값이 달라지므로 귀무분포를 고려해야 함
분포간 거리 측도
원본자료와 재현자료에서 각 변수의 분포를 각각 계산하여 유용성 판단 가능
변수간의 상관성 고려 못함
-
KL괴리도
- Kullback-Leibler
\[ D(f||g) = \int_{-\infty}^{\infty}f(x) log \dfrac{f(x)}{g(x)}dx\]
-
Wasser-stein 거리
\[ W_r(f,g) = (\int_{0}^{1} |F_f^{-1}(t) - F_g^{-1}(t)|^r)^{1/r} dt \]
신원 노출 위험도
Notation | 설명 |
---|---|
n | 원본(재현)자료 관측치 개수 |
\(f_i\) | 원본자료의 i번째 관측치에 대해 준식별자 값이 같은 관측치 개수 |
\(X_i\) | 원본자료의 i번째 관측치의 민감 변수 값 |
\(P_i\) | 원본자료에서 \(X_i\) 와 같은 값을 갖는 관측치의 비율 |
\(d_i\) | 1-\(p_i\) |
\(Y_i\) | 원본자료의 i번째 관측치와 연결된 재현자료 민감 변수 값 |
\((d_i)'\) | 원본자료에서 \(X_i\)가 속한 군집에 있는 관측치의 비율 |
-
민감변수: 준식별자를 제외한 나머지 변수
- 민감변수(명목형)
\[ d_i \times I(X_i=Y_t) > \sqrt{p_i(1-p_i)}, i=1,2,\dots,n\]
- 민감변수(연속형): k-means를 이용해 값을 군집화하고 부등식 확인
\[d'_i \times |X_i - Y_i| < 1.48 \times MAD , i=1,2,\dots,n \]
MAD:중위절대편차
원본자료의 i번째 관측치에서 위 부등식을 만족하는 민감벼눗의 비율이 5% 이상이면 1, 그렇지 않으면 0 \(\to\) 지시함수 \(R_i\)
-
신원 노출 위험도
\[ \dfrac{1}{n} \sum_{i=1}^{n}(\dfrac{1}{f_i}\times I_i \times R_i)\]
작을수록 신원 추출 가능성이 작아짐
- 구현 시간이 오래 걸림
- 준식별자와 민감 변수로 구분시 명확한 기준이 없음
속성 노출 위험도
공격자가 개인의 신원을 식별할 수는 없지만 특정 민감한 변수의 속성을 추론할 수 있을때 발생
완전 재현자료여도 속성 노출 위험도 항상 존재
-
CAP(correct attribution probability)
공격자가 원본자료의 일부 변수(K:key bariables)를 가지고 있고 하나의 특정 변수의 값에 대하여 알고자 하는(T:target variable) 상황에서 계산
\(K\)와 \(T\) 모두 범주형이어야 계산 가능, 연속형 변수는 K-MEANS를 실시하여..
α-정밀도, β-재현율, 독창성 점수
- 원본자료와 재현자료의 토대를 추정
- 테이블, 이미지 등 다양한 형태 데이터 져핸에 대한 평가 지표
- 잠재공간으로 임베딩시 hyperparameter설정에 따라 결과가 다르게 나옴
-
α정밀도
- 재현자료가 원본자료를 얼마나 충실하게 재현하는가
- 재현자료 유용성 측정지표
- α정밀도가 높은 재현자료는 현실성이 높은 관측치를 포함
원본 데이터 \(D_O\)의 확률분포의 서포트 안에서 α 만큼의 확률을 가지는 가장 작은 토대(α-support)를 \(S_0^α\)
\[ α정밀도:P_α\] \[ P_α := Pr(x_s \in S_0^α), for α \in [0,1]\]
\[재현자료가 원본자료의 분포에서 나타날 가능성\]
-
β재현율
- 재현자료가 원본자료의 다양성을 충분히 반영하는가
- 재현자료 유용성 측정지표
- β재현율이 낮은 재현자료는 원본자료의 일부만을 반복적으로 재현
\[β재현율: R_β\] \[ R_β := Pr(x_o \in S_0^β), for β \in [0,1]\]
\[재현자료의 분포가 원본자료를 얼마나 포함하지는지\]
-
독창섬점수 - 재현자료를 얼마나 원본자료에 존재하지 않는 새로운 관측치들을 만들어 내는가 - 정보노출의 위험성 측정 지표 - 재현자료가 원본자료를 과적합하여 그대로 사용하고 있는지?